English

“傻瓜”电脑离我们多远

1999-11-17 来源:光明日报 偶正涛 赵如江 我有话说

记者日前在中国科大人机语音通信实验室采访时看到令人震惊的一幕:操作人员只需按动电脑电源,随后信口发号施令,电脑即可按主人的意思进行文字输入、文件处理、收发邮件,甚至可以与使用者对话等等。该研究室负责人、智能计算机成果转化基地中央研究院院长王仁华教授告诉记者:“中文‘傻瓜’电脑悄然向我们走来!”

“让电脑听懂说话,让电脑开口说话。”几乎在计算机诞生的时候,专家们就开始向这一方面努力。只有达到这一目标,电脑才能成为世界上最聪明的“傻瓜”。

在计算机王国美国,行业头号霸主IBM率先进行电脑语音识别研究。经过20多年的努力,先后推出英文、法文、德文等近十种文字的语音识别技术。由于汉语结构复杂,单章节为主,同音字多,方言多,语法亦不规范,直到1997年底,IBM才推出不太成熟的汉语识别技术。这些顶尖高手们深知汉语音识别技术艰难,自身难以攻克,就以较低的价格,或技术互换的方式向全世界二次开发商、科研机构提供软件内核。

此后的一年多时间里,“让电脑听懂说话”技术获得迅疾突破,微软、IBM、摩托罗拉等世界级开发商投入大量人力物力。首创电脑声卡的新加坡创新公司,台湾清华大学和香港中文大学等华语研究开发机构在汉语音技术方面做了大量工作,语音导航、语音识别等技术日臻成熟。IBM公司1998年推出的汉语识别软件ViaVioice98,可在普通话基础上适应广东、四川、上海等有代表性的方音,只要读5个词、3句话即可建立一个语音模型,并有使用中自学功能。

“英雄所见略同”,汉语音技术在我国是“863”计划支持最早、时间最长的智能计算机领域攻关课题。清华大学、中国科学院声学所、中国科学技术大学等8家研究机构成立相关技术攻关组,接受“863”计划支持。到1997年底,由王仁华教授领导的中国科大人机语音通信实验室、国家智能计算机研究开发中心在汉语音识别、合成方面取得突破;与IBM进行技术交流获得语音识别内核基础上进行再开发,汉语音识别技术与IBM同步;语音合成方面通过十几年的摸索,毅然放弃国际通行的方法,独创“人声道模拟技术”,结束了在语音信号处理,音频、视频编码和传输等领域内多项关键技术上达到国际领先水平,结束了汉语音合成清晰度与自然度的制约,电脑终于可以说出流利的汉语。

记者在中国科大看到,操作者从因特网上下载一篇新闻,电脑即可略带情感地读出它。“863”专家组曾作过检测,把电台播音员播出水平打成5分,中国科大电脑合成的语音可打4分。

理论研究基础和科技上的突破,为汉语“能听会说”电脑问世提供了前提。以中国科大研究机构为依托成立的国家863智能计算机成果转化基地中央研究院、安徽硅谷天音信息科技有限公司对已取得的高新技术产品进行了产品化,其第一个语音输入和控制计算机产品“天音话王”已投放市场,月销量达百万元,港、台地区总销量逾10成万套。此前的IBM产品、“汉王”听写产品在市场上都有较好表现。

王仁华教授介绍,国内智能电脑技术发展相当迅速。中国科大的汉语音识别软件对电脑常用命令、术语,如打开文件、删除、新开窗口等,使用者不用进行适应性训练,亦可有较高的识别率;接受训练后的电脑,语音识别已超过实用标准,配合手写修改,完全可以让普通人享受电脑文本处理的便利。中国科大研究成功的语音合成技术则是通过建立语音库,先期大量录入语音,用特殊的算法对要合成的语音进行寻找、对应,因此摆脱了机器发声,实际播出的声音就是人声。电脑已能初步识别诸如人手势、形体动作。

但王教授也表示,包括语音识别在内,技术上要走的路还很远。如人的耳朵可以在嘈杂的声音中区别出需要的声音,而现行语音识别软、硬件对背景场都没有什么办法。只有在弄清人耳朵语音识别机理,做出仿生识别系统,才是语音识别的新台阶。

尽管语音识别与合成技术是基础而又专业的领域,但人们已认定“傻瓜”电脑技术势将对以家电为主的其他领域带来新一轮的产业革命:将来不仅是电脑操作,洗衣、调整电视、甚至是开车、控制车床等,只要动动口即可;保安系统不仅可以报告发生不测,还可以告诉您具体发生什么事情,如此等等。“傻瓜”电脑技术的成熟,使真正意义上的智能电器、智能家庭、智能大厦得以出现。可喜的是,国内这一方面基础理论研究成果、关键技术屡获突破,专家预测,不久的将来,民族化、能听会说、善于察言观色的聪明的“傻瓜”电脑将出现在千家万户。(新华社供本报特稿)

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有